iT邦幫忙

2023 iThome 鐵人賽

DAY 1
0

在這個資訊爆炸的時代,網絡成了我們獲取知識、資訊和娛樂的主要途徑之一。然而,網絡上的資源龐大且多樣,有時候我們可能想要將特定的資料整理、分析或應用於其他領域。這就是網路爬蟲的用武之地。

網路爬蟲能從網絡上擷取資料,並轉換成結構化格式,以便進行分析、處理或儲存。類似蟲子在網絡中爬行,尋找感興趣的資訊。發送請求到網址,解析網頁內容提取需要的資料,可以是文字、圖片、影片等。定期收集資料,獲得即時的信息。

爬蟲應用廣泛,新聞聚合到價格比較。收集競爭對手價格,制定策略;新聞機構自動整理發布新聞。
這項技術是強大工具,幫助我們尋找整理所需資訊。需遵守道德法律,確保不損他人利益。適當使用,深入網絡體驗。

接下來我們會講到兩大常見的爬取網路資料的語法分別為beautifulsoup以及selenium
我們可以稍微比較一下這兩者在使用上面的差別

特點 BeautifulSoup Selenium
主要用途 解析靜態HTML/XML頁面 測試、自動化瀏覽器操作
複雜度 較簡單,適用於靜態網頁 較複雜,支援動態網頁和JavaScript
安裝 使用pip安裝 使用pip安裝,需下載對應瀏覽器驅動
選擇元素 使用CSS選擇器、標籤名稱等 使用XPath、CSS選擇器等
定位方式 定位靜態元素,無需瀏覽器 需啟動瀏覽器,定位動態元素
JavaScript執行 不支援 支援,可執行網頁上的JavaScript代碼
適用情境 靜態網頁解析、資料提取 動態網頁測試、模擬用戶操作
效率 較高,適用於靜態頁面 較低,因為需啟動瀏覽器
社群支援 較廣泛,文檔豐富 較廣泛,文檔豐富,但主要針對測試方向
開發語言 Python 多種語言,但主要用於Python

下一篇來介紹beautifulsoup的環境安裝


下一篇
[Day 02]beautifulsoup環境安裝
系列文
30天來打造一個方便的訂房機器人30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言